在机器人和计算机视觉社区中,6D对象姿态跟踪已被广泛研究。最有前途的解决方案,利用深度神经网络和/或过滤和优化,在标准基准上表现出显着的性能。然而,为了我们的最佳知识,这些尚未对快速的对象动作彻底进行测试。在这种情况下跟踪性能显着降低,特别是对于未实现实时性能并引入不可忽略的延迟的方法。在这项工作中,我们介绍了RGB-D图像流的6D对象姿势和速度跟踪的卡尔曼滤波方法。通过利用实时光流,Roft使低帧速率卷积神经网络的延迟输出与RGB-D输入流的实例分段和6D对象姿态估计实现快速和精确的6D对象姿势和速度跟踪。我们在新引入的照片型数据集中测试我们的方法,Fast-YCB,包括来自YCB模型集的快速移动对象,以及对象的数据集和手动姿势估计HO-3D。结果表明,我们的方法优于6D对象姿势跟踪的最先进方法,同时还提供6D对象速度跟踪。显示实验的视频作为补充材料提供。
translated by 谷歌翻译
即使对于计算机图形专家来说,从风格化草图中对非线性对象的3D建模也是一个挑战。对象参数从风格化的草图中的外推是一项非常复杂且繁琐的任务。在本研究中,我们提出了一个经纪人系统,该系统在建模者和3D建模软件之间进行了介导,并可以将树的样式绘图转换为完整的3D模型。输入草图不需要准确或详细,只需要代表建模者希望3D模型的树的基本轮廓即可。我们的方法基于定义明确的深神经网络(DNN)体系结构,我们称为treeketchnet(TSN),基于卷积,并能够生成Weber和Penn参数,这些参数可以通过建模软件来解释以生成3D模型的模型树从简单的草图开始。培训数据集由合成生成的草图组成,这些草图与专用搅拌器建模软件附加组件生成的Weber-Penn参数相关。通过使用合成和手工制作的草图测试TSN来证明所提出方法的准确性。最后,我们通过评估预测参数与几个区别特征的相干性,对我们的结果进行定性分析。
translated by 谷歌翻译
在学习断开分布时,已知生成对抗网络(GAN)面临模型错误指定。实际上,从单峰潜伏分布到断开连接的连续映射是不可能的,因此甘斯一定会在目标分布支持之外生成样品。这提出了一个基本问题:最小化这些领域的衡量标准的潜在空间分区是什么?基于几何测量理论的最新结果,我们证明,最佳甘恩必须将其潜在空间构造为“简单群集” - 一个voronoi分区,其中细胞是凸锥 - 当潜在空间的尺寸大于大于的数量时模式。在此配置中,每个Voronoi单元格映射到数据的不同模式。我们在gan学习断开的歧管的最佳精度上得出了上限和下限。有趣的是,这两个界限具有相同的减小顺序:$ \ sqrt {\ log m} $,$ m $是模式的数量。最后,我们执行了几项实验,以表现出潜在空间的几何形状,并在实验上表明gan具有与理论相似的几何形状。
translated by 谷歌翻译
生成的对抗网络后面的数学力量提高了具有挑战性的理论问题。通过表征产生的分布的几何特性的重要问题,我们在有限的样本和渐近制度中对Wassersein Gans(WGAN)进行了彻底分析。我们研究了潜伏空间是单变量的特定情况,并且不管输出空间的尺寸如何有效。我们特别地显示出用于固定的样本大小,最佳WGAN与连接路径紧密相连,最小化采样点之间的平方欧几里德距离的总和。我们还强调了WGAN能够接近的事实(对于1-Wasserstein距离)目标分布,因为样本大小趋于无穷大,在给定的会聚速率下,并且提供了生成的Lipschitz函数的家族适当地增长。我们在半离散环境中获得了在最佳运输理论上传递新结果。
translated by 谷歌翻译
目前最先进的基于模型的强化学习算法使用轨迹采样方法,例如跨熵方法(CEM),用于在连续控制设置中规划。这些零顺序优化器需要采样大量的轨迹卷展栏以选择最佳动作,这对于大的预测视野或高维行动空间缩放。使用奖励的渐变与更新的操作使用奖励的一阶方法可以减轻此问题,但由于非凸优化景观导致的本地Optima遭受。为了克服这些问题并实现两全其美的问题,我们提出了一种新颖的计划者,具有梯度下降(CEM-GD)的跨熵方法,其将一阶方法与CEM结合起来。在执行开始时,CEM-GD使用CEM来采样大量的轨迹卷展览,以探索优化景观并避免较差的局部最小值。然后,它使用顶部轨迹作为梯度下降的初始化,并将梯度更新应用于这些轨迹中的每一个以找到最佳动作序列。然而,在每个后续时间步骤中,CEM-GD在应用梯度更新之前从CEM采样得多的轨迹得多。我们表明,随着规划问题的维度增加,CEM-GD通过使用梯度信息,通过恒定的少量样本保持所需的性能,同时使用最初采样纯净的轨迹来避免本地最佳局部。此外,CEM-GD比Mujoco中的各种连续控制基准测试更好的性能,每次步骤较少的样本,计算时间较少约25%,内存使用量减少10%。 CEM-GD的实现可在$ \ href {https:/github.com/kevinhuang8/cem-gd} {\ text {https://github.com/kevinhuang8/cem-gd}} $。
translated by 谷歌翻译
计算机愿景的进步正在推动IM-Age操作的限制,具有在各种任务上采样详细图像的生成模型。但是,通常为每个特定任务开发和培训专门的模型,即使许多图像编辑任务共享相似之处。在去噪,染色或图像合成中,一个始终旨在从低质量的那样产生现实形象。在本文中,我们旨在迈出朝着图像编辑的统一方法。为此,我们提出Edibert,这是一个在由矢量量化的自动编码器构建的离散潜在空间中培训的双向变压器。我们认为这种双向模型适用于图像操纵,因为可以将任何补丁根据整个图像重新采样。使用这种独特和简单的培训目标,我们表明由此产生的模型与各种任务的最先进的性能相匹配:图像去噪,图像完成和图像组成。
translated by 谷歌翻译
目前的推荐方法帮助在线商家预测,每个访问用户,其现有产品的子集是最相关的。但是,除了有兴趣与现有产品匹配用户,商家也有兴趣了解他们的用户的潜在偏好。这确实可以帮助他们在未来产生或获得更好的匹配产品。我们认为现有推荐模型不能直接用于预测将使新产品能够更好地满足目标受众的需求的最佳功能组合。为了解决这个问题,我们转向生成模型,允许我们在文本和视觉空间中学习产品特征组合的明确分布。我们开发Warhhol,产品生成和推荐架构,以输入过去的用户购物活动,并产生新颖产品的相关文本和视觉描述。我们展示沃霍尔可以探讨最先进的推荐模型的性能,同时能够生成与给定用户配置文件相关的全新产品。
translated by 谷歌翻译